高斯过程(GP),其结合了分类和连续输入变量模型已发现使用例如在纵向数据分析和计算机实验。然而,对于这些模型标准推理具有典型的立方缩放,并且不能应用于GPS共可扩展近似方案自协方差函数是不连续的。在这项工作中,我们导出用于混合域协方差函数,其中对于观察和基函数总数的数量成线性比例的基础函数近似方案。所提出的方法自然是适用于GP贝叶斯回归任意观测模型。我们证明在纵向数据建模上下文和显示的方法,它精确地近似于确切GP模型,只需要一个比较拟合对应精确模型运行时间的几分之一。
translated by 谷歌翻译
最近的机器学习进展已直接从数据中直接提出了对未知连续时间系统动力学的黑盒估计。但是,较早的作品基于近似ODE解决方案或点估计。我们提出了一种新型的贝叶斯非参数模型,该模型使用高斯工艺直接从数据中直接从数据中推断出未知ODE系统的后代。我们通过脱钩的功能采样得出稀疏的变异推断,以表示矢量场后代。我们还引入了一种概率的射击增强,以从任意长的轨迹中有效推断。该方法证明了计算矢量场后代的好处,预测不确定性得分优于多个ODE学习任务的替代方法。
translated by 谷歌翻译
在本文中,我们建议研究小算法生成的数据集上神经网络的概括。在此设置中,可以详细地研究关于数据效率,记忆,泛化和学习速度的问题。在某些情况下,我们表明神经网络通过数据中的“喷气”模式来学习,从随机机会水平提高了完全概括的泛化性能,并且这种泛化的改善可能会发生超过过度装备的点。我们还将泛化作为数据集大小的函数,发现较小的数据集需要越来越多的泛化优化。我们认为,这些数据集提供了一种肥沃的基础,用于研究深度学习的不良方面:过度分化的神经网络的概括超出了有限训练数据集的记忆。
translated by 谷歌翻译
The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.
translated by 谷歌翻译